Mixtral 8x22B ist das neueste Sprachmodell von Mistral AI. Es wurde im April 2024 unter der Apache 2.0-Lizenz veröffentlicht. Es gilt derzeit als eines der besten Open Source LLMs der Welt.
Das Sparse-Mixture-of-Experts (SMoE) Modell nutzt gerade einmal 39B von 141B aktiven Parametern. Dadurch überzeugt es mit seiner außerordentlichen Effizienz.
Dank eines Kontextfensters von 64K Token ruft es präzise Daten von großen Dokumenten ab. Bei den Vorgängermodellen setzte Mistral AI auf 32K Token.
Vorteile
Die größte Stärke von Mixtral 8x22B liegt in seiner Leistung, denn es ist schneller als 70B Modelle. Im Vergleich zu anderen Open Source LLMs punktet Mixtral 8x22B vor allem, wenn es um logisches Denken und Wissen geht. Besonders in den Bereichen Mathematik und Programmieren liefert es beeindruckende Ergebnisse.
Daher eignet sich Mixtral 8x22B gut für Datenanalysen oder zur Codegenerierung. Mithilfe der 64K Token lassen sich komplexe Fragen beantworten oder lange Texte zusammenfassen. Auch kreative Inhalte kann das Sprachmodell erstellen.
Hervorzuheben ist zudem die Mehrsprachigkeit von Mixtral 8x22B. Das Modell beherrscht Englisch, Französisch, Italienisch, Deutsch und Spanisch fließend.
LLama 3Meta veröffentlichte im Februar 2023 die erste Generation der Open Source LLMs Llama. Im Juli 2023 folgte mit Llama 2 eine deutlich verbesserte Version. Diese ist in drei verschiedenen Parametergrößen verfügbar (7B, 13B und 70B). Die neueste Version Llama 3 erschien im April 2024 in zwei Größen mit 8B und 70B.
Das Unternehmen entwickelte das Open Source LLM, um die Forschung und Entwicklung im Bereich KI voranzutreiben.
Das Fine-tuning von Llama erfolgte durch Reinforcement learning from human feedback (RLHF). Dabei wird das Modell durch menschliche Rückmeldungen verbessert. Es erhält Belohnungen oder Strafen basierend auf der Qualität seiner Antworten. Dadurch lernt es, bessere Ergebnisse zu liefern.
Vorteile
Dank der umfangreichen und vielfältigen Trainingsdaten bietet Llama 3 ein umfassendes Sprachverständnis. Das Modell kann u. a. kreative Texte in natürlicher Sprache generieren, Fragen beantworten, lange Texte zusammenfassen und übersetzen. Zudem unterstützt es Entwickler*innen dabei, automatisch Code zu vervollständigen sowie bei Funktionen und Bibliotheken.
Falcon 2Falcon ist ein Open Source LLM, das vom Technology Innovation Institute (TII) entwickelt wurde. NVIDIA und Microsoft fördern als namhafte Kooperationspartner die Entwicklung des Modells.
Die Architektur von Falcon LLM ist speziell auf Inferenzen ausgelegt. Verglichen mit anderen führenden Sprachmodellen besitzt es eine überragende Leistung. Das Modell nutzt den umfangreichen REFINEDWEB-Datensatz. Dieser enthält vielfältige Internetdaten und überzeugt besonders bei Aufgaben wie Schlussfolgerungen und Wissenstests.
Das Modell wurde mit 1 Billion Token trainiert.
Vorteile
Die leistungsstarken GPUs von NVIDIA liefern die nötige Rechenpower für das Training großer Sprachmodelle. Zusammen mit der Azure-Cloud von Microsoft entsteht eine flexible und skalierbare Plattform. Dadurch lässt sich Falcon effizient in verschiedenen Unternehmensbereichen einsetzen.
Falcon eignet sich besonders gut für Übersetzungen, zur Contenterstellung oder für eine Stimmungsanalyse.
BLOOMDas Open Source LLM BLOOM wurde von der Forschungsinitiative BigScience unter der Leitung von Hugging Face entwickelt. Über 1.000 internationale Forscher*innen und Entwickler*innen beteiligten sich an diesem Projekt. Finanziert wurde das Projekt von der Nationalen Forschungsagentur der französischen Regierung.
Das autoregressive Sprachmodell basiert auf 176B Parametern. BLOOM zählt zu einem der weltweit größten mehrsprachigen LLMs.
Vorteile
BLOOM wurde auf dem ROOTS-Korpus, einem riesigen 1.6 TB großen Datensatz, trainiert. Dieser umfasst 46 natürliche und 13 Programmiersprachen.
Dank dieser einzigartigen Mehrsprachigkeit eignet sich das Modell ideal für Übersetzungen, zur Texterstellung, Beantwortung von Fragen und Codegenerierung.